Wayback Machine
2010年頃のgoogle.co.jpを表示している例
https://gyazo.com/55a3c4a5035e217a4ee5b90cd7360db8
4750億のウェブページが保存されている
ウェイバックマシンが保持しているデータ量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点で1ペタバイトに達し、月に20テラバイトの割合で増加を続けている。
2003年に報告された増加率は月あたり12テラバイトであったので、1年でおよそ倍の速度になった。これは、議会図書館など世界最大規模の図書館の文書量をはるかに上回るものである。
そして2012年にはデータ総量は10ペタバイトを超えた。保存されたページ数(厳密には「ページ」ではない画像やスクリプトなども含む)では、2015年6月現在で4820億に達し、一週間あたりおよそ10億ページの割合で増加中である。このデータのコピーは新アレクサンドリア図書館にも保存されている。 ウェイバックマシンで閲覧可能なウェブアーカイブは、1996年のサービス開始当時はアレクサ・インターネットから提供されたデータが元であったが、インターネットアーカイブは2010年後半から独自の大規模Webクローリングを開始し、現在では自身で収集したデータが半分以上を占める。以前はデータ収集から公開まで半年から一年かかっていたが、独自のWebクローリングと2013年の技術革新により、数時間から一日で公開されるようになった。また「Save Page」で保存されたものは即時に閲覧可能である。
独自のクローラーを作るのはやっぱり夢がある daiiz.icon